Marco Trombetti

Futur

Vous pouvez augmenter vos chances de succès en identifiant, en suivant et en anticipant le développement de grandes tendances. Une façon simple d’identifier de telles tendances est de vivre dans le futur. Il n’y a pas encore de machine à voyager dans le temps et, pour expérimenter le futur, vous devez vivre dans un environnement que la plupart des gens considéreraient comme le futur. Un laboratoire de recherche, une entreprise innovante et un groupe d’amis ayant un fort intérêt commun pour la technologie sont des exemples parfaits d’environnements futuristes.

Comprendre les grandes tendances est important, et ce que je peux partager ici avec vous, c’est une courte expérience personnelle sur ce sujet.

L’intelligence artificielle est fascinante et fait peur. Le langage humain et la traduction en particulier sont peut-être les défis les plus difficiles auxquels sont confrontées les machines. Le langage naturel est un canal de communication très condensé qui est riche de sens, et pour le comprendre, il faut des informations contextuelles au-delà des mots eux-mêmes.

Le langage est le plus grand défi auquel les machines font face parce que c’est la chose la plus humaine qui soit. Pour cette raison, les systèmes de traduction automatique progressent lentement ; néanmoins, ils progressent indéniablement.

À Translated, le service de traduction que j’ai co-fondé, nous avons utilisé l’intelligence artificielle pendant ces 17 dernières années pour aider les traducteurs professionnels à traduire plus rapidement et mieux. Nous avons essayé de créer une symbiose entre l’homme et la machine. Nous l’avons fait de plusieurs façons, mais une de nos approches les plus importantes a été de fournir aux traducteurs des suggestions (pré-traductions) pour chaque phrase. Nous avons développé un outil de traduction pour les linguistes professionnels qui associe tous les textes professionnellement traduits disponibles sur le web à l’IA et à sa capacité de prédire des phrases jamais rencontrées auparavant. C’est la base de notre produit open-source appelé MateCat.

D’autres ont essayé des approches plus disruptives en remplaçant les traducteurs professionnels par une technologie de traduction de bout en bout. Le meilleur exemple est Google Translate.

En aidant les traducteurs professionnels, nous avons pu profiter d’une opportunité unique, celle de mesurer les progrès de l’IA sur une période de plusieurs années.

Nous avons mesuré le pourcentage de correction des suggestions fournies par l’IA par les traducteurs professionnels, et nous l’avons fait jour après jour, mois après mois et année après année.

En 2003, avec le précieux soutien financier de la Commission européenne, nous avons lancé un projet de recherche dans lequel nous avons traduit plusieurs centaines de milliers de mots, et nous avons constaté que le taux global de correction (effort de post-édition1) pour des traductions anglais > italien et anglais > français était d’environ 43 %. En 2015, le taux de correction était de 27 % pour les mêmes combinaisons de langues. La deuxième fois, nous avons utilisé un échantillon de 50 millions de mots traduits dans MateCat. Grâce à l’application de la traduction automatique neuronale et de MMT, un système de traduction capable de s’adapter à l’utilisateur, nous estimons que nous atteindrons un taux de correction compris entre 22 % et 26 % en 2018.

Cette amélioration a été inéluctable et constante, avec quelques petits ralentissements et accélérations dus respectivement à une technologie qui atteignait son potentiel maximal et une autre qui était introduite. Deux changements majeurs ont eu lieu : la traduction statistique, entrée en service en 2006, et l’apprentissage profond, introduit fin 2016.

Si nous continuons à ce rythme, quand arriverons-nous au point où il ne sera plus nécessaire de corriger la traduction automatique ? Si l’on regarde simplement les chiffres, il se pourrait que cela se produise entre 2030 et 2035.

Il y a cependant un autre fait intéressant que nous oublions souvent : les humains ne sont pas parfaits.

Quand nous avons analysé 20 millions de mots provenant des suggestions de traduction exacte par des traducteurs linguistes (appelées correspondance à 100 %), nous avons constaté que les suggestions émanant d’autres traducteurs ont un taux de correction moyen de 11 % et non pas de 0 % comme on pourrait s’y attendre. La raison est que errare humanum est, et aussi que chacun de nous a un style unique qu’il veut promouvoir. Lorsque nous parlons de la singularité, nous devons nous assurer de définir ce qui fait office de référence. Est-ce la perfection absolue ? Le meilleur traducteur du monde ? Ou juste le traducteur professionnel moyen ?

Si l’on se contente d’une machine qui traduit mieux que le traducteur professionnel moyen, 2025 pourrait être une date plus plausible pour laquelle nous atteindrions un taux de correction de 11 % dans ces combinaisons de langues. Pour moi, c’est terriblement proche et plutôt effrayant.

Je me demande s’il ne serait pas plus judicieux de vendre Translated aujourd’hui, puisque le marché des traductions professionnelles est voué à diminuer considérablement, ou bien si je dois essayer de surmonter le changement afin de saisir une opportunité encore plus grande. Au fond, les gens auront probablement besoin de plus de traductions, et non pas l’inverse. Je me sens un peu comme Kodak lors du passage de l’argentique au numérique.

Le fait que j’en sois conscient est déjà quelque chose, et j’ai donc déjà décidé : nous survivrons. Il est très probable que l’intelligence artificielle jouera à l’avenir un rôle clé dans tous les secteurs. Si le langage est la chose la plus difficile à traiter pour les machines, il est possible que la rupture se produise encore plus tôt dans de nombreux autres domaines, ce qui représente une excellente opportunité pour les startups.

1Effort de post-édition : afin de mesurer le taux de correction, nous utilisons un algorithme similaire au Fuzzy Match utilisé dans l'industrie de la traduction. Une distance d'édition au niveau des mots avec des ajustements pour prendre en compte les erreurs de ponctuation, de casse et de formatage.